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jg X [目的 /意义 ] 识别 社交 媒体 虚假 健康 信息 特征 ,构建 社交 媒体 虚假 健康 信息 特征 清单 ,以 期 为 社交 媒体 虚假 健康 
信息 特征 的 测度 提供 一 定理 论 支撑 ,也 为 用 户 和 社交 媒体 平台 判别 虚假 健康 信息 提供 有 益 参 考 。 [ 方法 “过 程 ] 
采集 1 004 条 社交 媒体 健康 数据 ,利用 程序 化 编码 抽取 社交 媒体 虚假 健康 信息 的 关键 特征 ,运用 卡 方 检验 和 方差 
分 析 揭 示 社 交 媒 体 虚 假 健康 信息 的 显著 特征 ,并 构建 社交 媒体 虚假 健康 信息 特征 清单 。[ 结果 /结论 ] 研究 结果 
表明 ,社交 媒体 虚假 健康 信息 特征 具有 表面 特征 .语义 特征 和 来 源 特 征 3 个 维度 、11 个 主要 特征 以 及 29 个 子 特 
征 。 其 中 ,社交 媒体 上 食品 安全 主题 的 虚假 健康 信息 在 “术语 包装 ”特征 上 表现 得 更 为 显著 ;“ 夸大 事实 ”为 社交 媒 
体 上 常见 疾病 主题 虚假 健康 信息 的 显著 特征 ;社交 媒体 上 养生 保健 主题 的 虚假 健康 信息 具有 “元 数据 缺失 ”和 “ 假 
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随 着 人 口 老 龄 化 和 疾病 年 轻 化 ,寻求 健康 信息 成 
湖 N 们 当下 迫切 的 现实 需求 " 。 而 社交 媒体 作为 创 
ES 发 布 与 传播 信息 的 重要 平台 ,已 成 为 人 们 获取 健康 
信息 的 新 途径 ”。 根 据 一 项 针对 用 户 搜寻 健康 信息 方 
式 多 油 查 显示 ,63.26% 的 用 户 使 用 社交 媒体 搜索 健康 
信 笃 ”。 关 于 用 户 寻求 健康 信息 渠道 的 偏好 研究 也 表 
明 6 和 比 于 其 他 的 在 线 健康 资讯 平台 ,用 户 更 加 倾向 于 
使 用 社交 媒体 来 查找 健康 信息 ”。 尽 管 社交 媒体 已 成 
为 用 户 获取 健康 信息 的 重要 来 源 ,但 其 也 充斥 着 大 量 
无 用 甚至 有 害 的 虚假 健康 信息 , 饱 受 信息 质量 参差 
AGE" ,信息 污染 严重 ”信息 真 假 难 辨 "等 诉 病 。 最 


严重 的 健康 后 果 "“。 比 如 近期 在 社交 媒体 上 流传 的 
关于 “饮用 高 度 酒精 可 以 预防 新 冠 肺 炎 ” 的 虚假 信息 
严重 影响 了 公众 对 新 冠 肺炎 病毒 的 认 知 ,并 因此 导致 
了 至 少 600 人 死亡 。 不 仅 如 此 ,伴随 着 新 型 冠状 病 
毒 疫情 的 爆发 ,社交 媒体 上 虚假 健康 信息 的 快速 传播 
更 是 导致 了 新 一 轮 的 “信息 疫情 ”爆发 。 

因此 ,如 何 从 社交 媒体 海量 的 健康 信息 中 辨别 出 
虚假 健康 信息 是 当前 急需 解决 的 现实 问题 ,而 识别 
社交 媒体 虚假 健康 信息 的 特征 对 于 虚假 健康 信息 的 有 
效 辨别 至 关 重 要 "!。 鉴 于 此 ,笔者 将 聚焦 于 挖掘 社 
交 媒 体 虚假 健康 信息 的 特征 ,通过 采集 真实 的 社交 媒 
体 健康 数据 为 分 析 样 本 ,基于 图 书 情报 学 领域 的 相关 
理论 和 技术 ,对 社交 媒体 虚假 健康 信息 特征 识别 展开 


新 关于 虚假 健康 信息 的 调查 显示 ,31. 2% 的 互联 网 用 
户 遭 遇 过 虚假 健康 信息 的 欺诈” ,超过 50% 的 社交 媒 
体 传 播 的 健康 信息 为 虚假 健康 信息 。 此 外 , 皮 尤 研 
究 中 心 (Pew Research Center ) 的 报告 也 显示 ,68% 的 社 
交 媒 体 用 户 经 常 看 到 虚假 或 不 真实 的 健康 信息 ” 。 
加 之 社交 媒体 缺乏 有 效 的 监管 以 及 用 户 的 健康 信 
息 素养 水 平 有 限 "” ,用 户 的 健康 决策 与 行为 也 受到 虚 
假 健康 信息 的 误导 而 存在 较 大 的 风险 ,甚至 可 能 导致 


深入 探究 ,以 期 为 社交 媒体 虚假 健康 信息 特征 的 测度 
提供 一 定理 论 支 撑 , 也 为 用 户 和 社交 媒体 服务 平台 判 
别 虚 假 健康 信息 提供 有 效 途 径 。 


2 概念 界定 及 相关 研究 


2.1 社交 媒体 虚假 健康 信息 
Web 2.0 时 代 , 社 交 媒 体 正 日 益 成 为 虚假 健康 信 
息 传播 的 主要 渠道 ”。 首 先 ,由 于 社交 媒体 的 开放 
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性 ,任何 用 户 都 可 以 直接 发 布 和 传播 健康 信息 ,而 无 需 
确认 其 所 发 布 信息 的 真实 性 或 可 靠 性 ”" 。 其 次 ,研究 
也 表明 ,用 户 在 社交 媒体 上 分 享 自身 健康 经 验 的 动机 
往往 比 在 其 他 在 线 平台 上 更 为 强烈 ,而 这 些 第 一 手 的 
健康 信息 可 能 是 不 准确 的 ” 。 最 后 ,与 网 站 上 的 健康 
信息 相 比 ,社交 媒体 上 的 健康 信息 趋 于 简化 ,容易 忽略 
一 些 细小 但 重要 的 信息 。 鉴 于 此 ,笔者 将 重点 关注 
社交 媒体 上 的 虚假 健康 信息 ,这 里 的 健康 信息 是 指 一 
切 有 关 人 的 健康 的 知识 技术. 技能、 观念 和 行为 等 信 
BAA. HURL. Bode AIE. K. Vraga 的 观点 ” ， 
笔者 将 虚假 健康 信息 定义 为 缺乏 科学 证 据 和 专家 意见 
支持 的 错误 健康 信息 。 该 定义 可 以 用 来 描述 社交 媒体 
上 不 同类 型 的 错误 健康 信息 ,如 谣言 .失真 健康 信息 、 
伪 健 康信 息 及 其 他 变 休 ” 。 

2. e 虚假 信息 特征 研究 

一 随 着 越 来 越 多 的 虚假 信息 在 网 上 传播 , - 些 学 者 
世 旬 对 虚假 信息 的 特征 展开 了 相关 研究 。J Zhou 等 
WPT Twitter 上 健康 谣言 的 特征 ,发现 Twitter 上 的 健 
BERE RAIT T 个 特征 :情感 效 价 吸 引力 ,发 布 者 
的 向 威 性 .外 部 证 据 、 论 据 长 短 、 主 题 标签 以 及 直接 消 
AES Y. Li RFA CARS 列表 将 网 络 虚假 健康 信息 特 


涉及 健康 信息 的 权威 性 .溯源 性 .合理 性 .透明度 广告 
及 编辑 政策 等 ” ;LIDA 是 由 英国 牛津 大 学 附属 公司 
Minervation 开发 的 一 款 用 于 识别 网 站 上 虚假 医疗 保健 
信息 的 工具 ,该 工具 由 3 部 分 组 成 , 即 信息 的 可 访问 
性 .可 用 性 和 可 靠 性 '] ;JAMA 是 由 美国 医学 会 杂志 开 
发 的 一 套用 于 识别 医疗 网 站 上 虚假 健康 信息 的 标准 ， 
该 标准 包含 4 个 维度 :作者 、 归 因 、\ 信 息 披露 和 更 新 , 具 
体 包括 作者 姓名 、 作 者 单位 .授权 证 书 、 参 考 文献 .来 
源 、 利 益 冲 突 \ 广 告 .日 期 等 评价 指标 。 尽 管 已 有 研 
究 开 发 了 一 些 识别 虚假 信息 的 评估 工具 ,但 也 可 以 发 
现 ,这 些 工具 大 多 集中 在 医疗 健康 网 站 中 的 虚假 信息 
辨别 ,是 否 适用 于 社交 媒体 中 的 虚假 健康 信息 仍 有 待 
检验 。 

此 外 ,也 有 一 些 学 者 基于 机 器 学 习 方 法 来 识别 虚 
假 信息 。 如 M. Ott 等 S. Shojaee 4579 J. Li 4677 
运用 词 袋 、 词 性 和 文体 特征 对 人 工 编写 的 虚假 评论 和 
真实 评论 进行 文本 提取 ,构建 了 朴素 贝 叶 斯 (NBM) 和 
支持 向 量 机 模型 (SVM) ,达到 84% - 89. 696 的 识别 准 
M;N. Jindal 和 B. Liu 等 ” ”基于 文体 .元 数据 和 
语法 等 特征 对 亚马逊 数据 集 采 用 逻辑 回归 模型 进行 文 
本 挖掘 ,获得 63% -78% 的 识别 准确 率 ;A. aan 


(IBEW: 4 个 维度 : 缺乏 可 信和 度 缺乏 准确 性 、 缺 乏 合 
Shp BRE moe L, Rubin 将 互联 网 上 的 虚假 
信息 特征 归纳 为 3 个 方面 :伪造 .隐瞒 (忽略 重大 事实 ) 
Filter T PU iL. Zhou 等 将 网 站 上 虚假 信息 特征 划 
D PES 数量 .复杂 性 .不 确定 性 AE ECBETE RATE 
A RENE. JEER FE DL RE] 7] 7 L. Lavorgna 
AE ATE T P £s E HAE DC rf KO ABLE Dl BO d , 表 
明 虚 假 健康 新 闻 往 往 夺 大 了 未 经 科学 证 实 的 事实 ” 。 
虽然 现 有 研究 发 现 了 虚假 信息 的 一 些 特征 ,但 这 些 特 
征 大 多 是 针对 外 文 的 ,是 否 适用 于 中 文 仍 有 待 验 证 ,而 
且 这 些 特征 的 提取 较 少 来 自 实证 数据 。 此 外 ,已 有 研 
究 对 社交 媒体 上 的 虚假 健康 信息 特征 的 关注 仍然 比较 
缺乏 。 
2.3 虚假 信息 识别 研究 

目前 ,已 有 一 些 研究 试图 开发 评估 工具 以 识别 虚 
假 信 息 。DISCERN 是 由 英国 牛津 大 学 健康 科学 研究 
所 开发 的 广泛 用 于 帮助 消费 者 识别 互联 网 上 虚假 治疗 
信息 的 一 款 工具 ,该 工具 包含 15 项 关键 指标 ,涉及 治 
疗 信息 的 明确 性 `. 相 关 性 .适当 性 参考 文献 日 期 、 客 
观 性 等 ” ;HONcode 是 瑞士 健康 在 线 基金 会 建立 的 主 
要 用 于 帮助 患者 、 医 护 工 作者 和 普通 大 众 识别 健康 网 
站 上 虚假 信息 的 一 套 准 则 ,该 准则 包含 8 项 评估 原则 ， 


等 "在 Yelp 数据 集 上 采用 支持 向 量 机 分 类 器 , 运 

本 特征 获得 65.6% 和 67. 8% 的 识别 准确 率 。 
出 ,虽然 应 用 神经 网 络 .决策 树 和 逻辑 回归 等 方法 判别 
虚假 信息 取得 一 定 的 效果 ,但 当前 研究 大 多 仅 关 注 了 
虚假 信息 的 部 分 特征 ,而 忽视 了 虚假 信息 其 他 方面 的 
特征 。 因 此 ,笔者 将 通过 抓 取 真 实 的 社交 媒体 健康 数 
据 , 基 于 内 容 分 析 和 统计 分 析 混 合 方法 ,对 社交 媒体 虚 
假 健康 信息 的 整体 特征 进行 深入 探究 。 


3 “研究 设计 与 实施 
3.1 研究 方法 与 工具 

笔者 采用 非 介 入 性 的 研究 方法 一 一 内 容 分 析 法 ， 
借助 NVivo Plus 软件 ,对 社交 媒体 虚假 健康 信息 的 特 
征 进行 提取 。 内 容 分 析 法 是 一 种 科学 的 对 原始 资料 进 
行 归纳 和 演绎 的 研究 方法 ,通过 对 原始 资料 进行 细 粒 
度 分 析 ,能 够 比较 客观 可靠 地 揭示 资料 数据 的 核心 主 
E", NVivo Plus 是 目前 主流 的 资料 编码 分 析 的 工 
具 ,其 插件 NCapture 具有 采集 与 分 析 社 交 媒 体 数据 的 
功能 ,特别 适用 于 文本 的 数据 获取 与 分 析 ” 。 在 提炼 
社交 媒体 虚假 健康 信息 特征 的 基础 上 ,笔者 进一步 结 
合 卡 方 检验 和 方差 分 析 方 法 来 揭示 虚假 健康 信息 的 显 
著 特 征 。 
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3.2 研究 样本 选取 

本 研究 以 微 信 中 传播 的 虚假 健康 信息 作为 研究 样 
本 。 微 信 作 为 主流 社交 媒体 的 代表 ,向 用 户 提供 丰富 
的 健康 资讯 和 相关 服务 ,是 中 国 最 具 影 响 力 的 社交 媒 
体 之 一 。 同 时 ,调查 发 现 , 微 信 平 台 上 超过 一 半 的 健康 
信息 为 虚假 健康 信息 ""。 因 此 ,以 微 信 作 为 本 文 的 研 
究 平台 具有 相当 的 代表 性 和 上 典型 性 。 本 研究 借助 微 信 
尽 话 助手 来 筛选 虚假 健康 信息 。 微 信 辟 谣 助 手 是 微 信 
平台 开发 的 辟谣 小 程序 ,已 有 超过 400 家 权威 机 构 BL 
府 组 织 和 主流 媒体 (如 人 民 网 .中 科 院 之 声 .科普 中 国 、 
丁香 医生 、 果 过 网) 已 接 入 该 助手 ,其 主要 目的 是 曝光 
缺乏 科学 依据 的 虚假 信息 。 同 时 ,该 助手 还 发 布 经 
过 科学 检验 的 ,被 证 明 为 真实 的 健康 信息 ,以 驶 斥 相应 
的 虚假 健康 信息 。 因 此 ,笔者 利用 NCapture Ze ACRE 
PF ERI 2018 年 1 月 -2020 4E 8 月 微 信 中 被 证 
实 汲 虚 假 的 健康 信息 , 共 502 条 。 同 期 ,采集 微 信 中 联 
斥 锋 此 虚假 健康 信息 的 真实 健康 信息 , 共 502 条 。 此 
欠条 研 究 排除 尚 不 能 判断 其 真 假 的 健康 信息 。 之 后 ， 
考 对 共计 1 004 条 真 假 健康 信息 进行 文本 遍历 并 保 


: [ 作 共 持续 两 个 月 。 
@ 〇 在 此 基础 上 ,本 研究 根据 世界 卫生 组 织 ( World 
Health Organization , WHO ) 对 健康 主题 的 分 类 ,由 两 
名 研究 者 共同 对 每 条 真 假 健康 信息 的 主题 进行 归 类 ， 
最 疙 资料 主题 被 归 为 3 类 :中 食品 安全 主题 (31.3% ) , 
包 所 食品 添加 剂 、 转 基因 食品 食物 搭配 等 ;@ 常 见 疾 


病 主题 (27.7% ) ,包括 流感 疫苗、 高 血压 、 糖 尿 病 、 心 


é 


IS AEE OR EREE (41. 0% ) ,包括 保健 


虚假 新 闻 识 别 信息 图 表 中 的 特征 进行 适当 归纳 和 总 
结 。 其 中 “查询 作者 信息 ”和 ”核实 日 期 "揭示 的 是 
“元 数据 缺失 "特征 ， 考 虑 新 闻 来 源 " 揭示 的 是 “ 信 源 
模糊 ”特征 ,“ 读 “全 ”揭示 的 是 “信息 不 完整 ”特征 ， 
“论据 ”揭示 的 是 “缺乏 确证 ”特征 ,“ 是 不 是 一 个 玩笑 ” 
揭示 的 是 “夸大 事实 特征。 另外， 核实 自己 对 此 新 
闻 有 无 偏见 ”" 和 “请 教 专 家 ”不 是 针对 虚假 信息 本 身 所 
提出 的 特征 ,因此 本 研究 予以 剔除 。 最 终 得 出 虚假 信 
息 的 5 个 关键 特征 : 信 源 模糊 、 信 息 不 完整 .元 数据 缺 
A 缺乏 确证 .伟大 事实 。 因 此 ,笔者 以 此 开发 社交 媒 
体 虚 假 健康 信息 特征 编码 初始 框架 ( 见 表 1)。 同 时 ， 
由 于 IFLA 虚假 新 闻 识 别 信息 图 表 是 基于 英语 语 境 提 
出 来 的 ,在 中 文 语 境 下 未 必 完 全 适用 。 加 之 本 文 研究 
的 是 社交 媒体 的 健康 信息 ,与 普通 媒体 的 一 般 信 息 存 
在 一 定 差异 。 因 此 ,本 文 在 编码 的 过 程 中 虽 以 表 1 为 
框架 ,但 并 不 局 限于 编码 框架 中 已 有 的 特征 。 

表 1 社交 媒体 虚假 健康 信息 特征 编码 框架 


关键 特征 含义 参考 来 源 
信 源 模糊 ” ”提供 的 信息 的 来 源 不 明 或 来 源 不 可 靠 “考虑 新 闻 来 源 ” 
信息 不 完整 ”提供 的 信息 内 容 不 全 或 有 偏差 “ 读 “ 全 ” 
元 数据 缺失 ”无 法 提供 与 信息 有 关 的 各 种 描述 性 “查询 作者 信息 和 
参数 核实 日 期 ” 
缺乏 确证 ”提供 的 信息 不 能 支撑 文中 的 观点 “论据 ” 
大 事实 。 ”提供 的 信息 故意 夸大 事实 “是 不 是 一 个 玩笑 ” 


为 确保 研究 的 科学 性 ,笔者 参照 J. M. Corbin 和 
A. Strauss 的 程序 化 编码 方法 “ , 即 按照 开放 式 编码 、 
主轴 编码 和 选择 式 编 码 对 虚假 健康 信息 进行 编码 分 
析 。 鉴 于 本 研究 在 提取 虚假 健康 信息 的 特征 上 ,需要 
与 真实 健康 信息 的 特征 进行 比较 分 析 , 以 确定 社交 媒 


调养 .健身 减肥 , 孕 产 护理 等 。 由 于 真实 健康 信息 与 虚 
假 健康 信息 是 配对 的 ,因此 它们 具有 相同 的 主题 ,每 类 
中 真 假 健康 信息 的 条 数 各 占 50% 。 
3.3 资料 编码 

笔者 基于 国际 图 书馆 协会 联合 会 (International 
Federation of Library Associations and Institutions , IFLA ) 
2016 年 发 布 《如 何 分 辨 虚假 新 闻 》( How To Spot Fake 
News) 的 信息 图 表 “ ,构建 虚假 健康 信息 特征 编码 分 
析 框 架 ,以 提取 社交 媒体 虚假 健康 信息 的 主要 特征 。 
IFLA 开发 虚假 新 闻 识 别 信 息 图 表 主 要 是 为 了 帮助 普 
通 大 众 分 辩 和 鉴别 媒体 中 虚假 信息 ,从 8 个 方面 来 考 
虑 信息 的 真实 性 :考虑 新 闻 来 源 . 读 "全 ”\ 查 询 作 者 信 
息 .论据 核实 日 期 .是 不 是 一 个 玩笑 .核实 自己 对 此 新 
闻 有 无 偏见 .请教 专家 。 

为 确保 编码 的 准确 性 ,笔者 结合 研究 情境 对 IFLA 


体 虚假 健康 信息 的 关键 特征 。 因 此 ,笔者 对 真实 健康 

言 息 也 按照 相同 的 编码 方式 进行 分 析 , 量 单独 计 入 真 
实 健康 信息 的 特征 编码 。 本 研究 采用 两 名 编码 员 进 行 
资料 编码 ,为 了 确保 编码 的 可 靠 性 ,随机 选取 20% 的 数 
据 由 两 名 编码 员 同 时 进行 编码 ,并 计算 了 编码 员 之 间 的 
一 致 性 Cohan' s kappa 系数 为 0.82 ,表明 编码 一 致 性 较 
高 ” 。 剩 下 的 80% 的 数据 随机 分 为 两 组 分 别 进行 编 
码 , 对 编码 过 程 中 存在 异议 的 虚假 特征 组 织 小 组 讨论 并 
最 终 选择 一 个 与 研究 主题 最 为 贴切 的 虚假 特征 。 

第 一 阶段 (Code 工 ) 开 放 式 编码 ,研究 者 在 NVivo 
Plus 中 采用 逐 行 逐 句 的 方式 检阅 每 条 健康 信息 ,通过 
仔细 审查 原始 资料 和 反复 归纳 ,并 稍 加 以 词汇 规范 , 提 
炼 出 29 个 初始 范畴 ,4 478 个 编码 参考 点 ,包括 来 源 不 
BA 内 容 残 缺 .缺少 作者 信息 、 缺 乏 科 学 依据 、 鼓 歇 功 
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效 . 语 气 无 节制 ,假冒 权威 媒体 、 滥 用 术语 、 拼 写 错误 、 
声称 最 新 消息 ,编造 案例 等 。 第 二 阶段 (Code II) 主轴 
编码 ,研究 者 围绕 社交 媒体 虚假 健康 信息 特征 编码 框 
架 , 运 用 子 范畴 与 主 范畴 之 间 的 逻辑 关系 ,将 29 个 初 
始 范畴 尽 可 能 多 的 映射 到 这 些 特 征 中 ,最 终 形成 11 个 
主 范畴 。 这 些 主 范 畴 既 包 括 信 源 模糊 、 信 息 不 完整 .元 
数据 缺失 缺乏 确证 ,夸大 事实 等 编码 框架 中 的 特征 ， 


心 范畴 。 其 中 ,表面 特征 是 指 


信息 格式 的 正确 性 ,包括 


元 数据 缺失 和 格式 混乱 。 语 义 特 征 是 指 信 息 内 容 的 准 


确 性 ,包括 信息 不 完整 SKS 


PSC .语气 或 语言 不 当 \ 术 


语 包 装 、 信 息 诱 导 及 捏造 信息 ;来 源 特 征 是 指 信息 来 源 

的 可 信 度 ,包括 信 源 模糊 、 缺 乏 确证 和 假借 权威 。 
编码 可 视 化 如 图 1 所 示 , 图 1 中 不 同 分 支 颜色 代 

表 不 同 虚假 健康 信息 特征 的 编码 ,分 支 的 宽度 代表 编 


也 包括 编码 框架 之 外 的 新 开发 的 特征 ,如 语气 或 语言 
不 当 、\ 假 借 权 威 ` 术 语 包装 、 格 式 混乱 、 信 息 诱导 、 捏 造 
信息 。 第 三 阶段 (Code 亚 ) 选 择 式 编码 ,研究 者 采用 意 
义 构建 的 方式 对 主 范畴 进行 融合 和 聚焦 ” ,将 11 个 


码 占 比 (来 源 特 征 31.2% ,语义 特征 49.6% 、 表 面 特征 
19.2% ) ,流向 代表 编码 节点 之 间 的 关系 , 相 邻 两 条 坚 
线 区 域 代表 编码 阶段 (Code I .Code I ,Code IIl) ,该 
图 能 够 直观 地 反映 社交 媒体 虚假 健康 信息 特征 的 编码 


主 范畴 归并 为 表面 特征 .语义 特征 和 来 源 特征 3 个 核 | 过 程 与 编码 关系 。 
E —— | EL 
= 养生 保健 SS —M—ÀÀ = (19296) 
> (410% ) : 
©O 
wm 
Te) men 
Ie E 
n (313%) 
"T 
e 
co 
N 常见 疾病 来 源 特征 
常见 NES 
Q dont | (3129) 
> Sources Code I Code II Code III 
e 图 1 社交 媒体 虚假 健康 信息 特征 的 编码 可 视 化 


3, 理论 饱和 度 检验 

- 夺 经 过 三 级 编码 ,社交 媒体 虚假 健康 信息 特征 已 基 
本 确定 ,为 了 确保 本 研究 抽取 的 社交 媒体 虚假 健康 信 
息 特征 已 经 达到 理论 饱和 ,研究 者 按照 相同 的 编码 规 
则 和 程序 连续 10 次 随机 选取 30 条 新 的 虚假 健康 信息 
进行 编码 ,发现 没有 出 现 新 的 编码 范畴 和 编码 关 
系 ,因此 ,可 以 认为 本 研究 社交 媒体 虚假 健康 信息 特征 
被 全 部 捕捉 到 ,理论 饱和 度 较 好 。 


4 数据 分 析 


经 过 资料 编码 ,本 研究 从 社交 媒体 中 提取 的 虚假 
健康 信息 特征 具有 3 个 维度 、11 个 主要 特征 29 个 子 
特征 。 为 了 更 为 精准 地 识别 社交 媒体 虚假 健康 信息 的 
显著 特征 ,笔者 统计 了 真 假 健康 信息 在 不 同 主题 和 不 
同 特征 维度 上 的 编码 分 布 ,数据 汇总 见 表 2。 表 2 中 下 
代表 虚假 健康 信息 ,T 代表 真实 健康 信息 ,括号 外 数值 
代表 虚假 特征 出 现 的 频次 ,括号 内 数值 代表 虚假 特征 


出 现 频 次 的 占 比 (%)。 在 此 基础 上 ,本 研究 采用 卡 方 
检验 识别 相同 主题 中 虚假 健康 信息 的 显著 特征 ,采用 
方差 分 析 比 较 不 同 主题 中 虚假 健康 信息 的 显著 特征 ， 
具体 分 析 如 下 : 
4.1 相同 主题 虚假 健康 信息 显著 特征 分 析 

笔者 采用 列 联 卡 方 检验 的 方法 对 同一 主题 中 每 个 
寺 征 分 别 进行 检验 ( 见 表 3) ,以 测试 社交 媒体 相同 主 
题 下 真 假 健康 信息 特征 之 间 是 否 具有 显著 差异 。 在 本 
研究 中 , 当 2 统计 量 所 对 应 的 近似 概率 值 (p 值 ) 小 于 
显著 性 水 平 (a =0.05), 则 认为 社交 媒体 真 假 健康 信 
息 特 征 之 间 存 在 显著 差异 , 卡 方 检验 结果 见 表 3。 结 
果 表明 ,在 食品 安全 类 、 常 见 疾病 类 和 养生 保健 类 主题 
中 ,社交 媒体 真 假 健康 信息 特征 之 间 均 存在 显著 差异 ， 
即 表 面 特征 .语义 特征 和 来 源 特 征 及 其 子 特征 能 够 有 
效 区 分 虚假 健康 信息 与 真实 健康 信息 , 若 社交 媒体 健 
康信 息 在 这 些 特征 维度 上 均 表 现 突出 , 则 可 以 将 其 判 
定 为 虚假 健康 信息 。 
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表 2 社交 媒体 真 假 健康 信息 特征 编码 数据 汇总 


食品 安全 主题 (nl =314) 常见 疾病 主题 (ns =278) 养生 保健 主题 (n3 =412) 
特征 维度 主要 特征 s " 
表面 特征 元 数据 缺失 141(89.9) 6(3.8) 129(92.8) 3(2.2) 193 (93.7) 17(8.3) 
格式 混乱 107(68.2) 11(7.0) 94(67.6) 6(4.3) 137 (66.5) 15(7.3) 
语义 特征 信息 不 完整 104(66.2) 4(2.5) 101(72.7) 2(1.4) 138(67.0) 3(1.5) 
夸大 事实 139(88.5) 5(3.2) 129(92.8) 4(2.9) 184(89.3) 7(3.4) 
语气 或 语言 不 当 145(92.4) 55(35.0) 131(94.2) 40(28.8) 190(92.2) 61(29.6) 
术语 包装 50(31.8) 4(2.5) 37(26.6) 1(0.7) 47(22.8) 2(1.0) 
信息 诱导 127(80.9) 6(3.8) 114(82.0) 9(6.5) 170(82.5) 15(7.3) 
捏造 数据 62(39.5) 2(1.3) 52(31.4) 1(0.7) 74(35.9) 4(1.9) 
来 源 特 征 信 源 模糊 146(93.0) 23(14.6) 131(94.2) 18(12.9) 191(92.7) 25(12.1) 
缺乏 确证 127(80.9) 7(4.5) 114(82.0) 3(2.2) 173(84.0) 7(3.4) 
假借 权威 110(70. 1) 3(1.9) 126(90. 6) 4(2.9) 186(90.3) 6(2.9) 


二 在 确定 社交 媒体 虚假 健康 信息 显著 特征 的 基础 
二 笔 者 进一步 根据 卡 方 统计 量 来 判断 虚假 特征 的 重 
要 程度 ”。 在 表面 特征 维度 上 ,“ 元 数据 缺失 ” 
(229.012 -300.851“) 是 社交 媒体 虚假 健康 信息 重 
要 的 特征 ， 格 式 混乱 (124. 653 7 - 155. 167 7) 是 社 
次 媒体 虚假 健康 信息 的 次 要 特征 。 在 语义 特征 维度 

夸大 事实 ”(225. 240" - 305. 786") “fa A 


SEU 160. 763" - 235. 7027), “信息 不 完整 ” 
e 


(141.136 — 196. 506"), “HAR RIB A A YY” 
(111.553 — 169.659”) 是 社交 媒体 虚假 健康 信息 重 
要 的 特征 ,“ 捍 造 数 据 ”(60.635” -77.491 ™) “术语 
包装 ”(39.505 -47.324“) 是 社交 媒体 虚假 健康 信 
息 次 要 的 特征 。 在 来 源 特征 维度 上 ,“ 信 源 模糊 ” 
(184. 682 * —268.166 ) “缺乏 确证 ”(181. 836" — 
271.865 =) Fil BE Ud" (158. 279 ™ — 316. 023 7) 35] 
是 社交 媒体 虚假 健康 信息 重要 的 特征 。 


Ww 


RI ”社交 媒体 真 假 健康 信息 特征 卡 方 检验 


en 食品 安全 主题 (ni =314) 常见 疾病 主题 (ns = 278 ) 养生 保健 主题 (n3 =412) 
2 特征 维度 主要 特征 F T F T F T 
x: x? xi 

5 表面 特征 元 数据 缺失 233.111 ** 229.012 *** 300. 851 *** 
E 格式 混乱 125.122 ** 124. 653 *'* 155.167 ** 
dun 语义 特征 信息 不 完整 141.136 ** 151.161 ** 196. 506 *** 
© 夸大 事实 230.318 *'* 225.240 *** 305. 786 *** 
术语 包装 47.324 *** 39. 505 *** 46.905 *** 
信息 诱导 190.972 *** 160. 763 *** 235.702 *** 
语气 或 语言 不 当 111.553 ** 125.819 *** 169.659 *** 
捏造 数据 70.650 *** 60.635 *** 71.49] *** 
来 源 特征 信 源 模糊 193. 859 *** 184. 682 *** 268.166 *** 
缺乏 确证 187.463 *** 181.836 *** 271.865 *** 
假借 权威 158.279 *** 215.060 *** 316.023 *** 


TE: “表示 p «0.001 


4.2 不 同 主题 虚假 健康 信息 显著 特征 分 析 

笔者 采用 方差 分 析 方法 对 不 同 主题 中 的 每 个 特征 
分 别 进 行 检 验 ,以 推断 社交 媒体 不 同 主题 虚假 健康 信 
息 之 间 是 否 存 在 显著 差异 。 在 本 研究 中 ,以 不 同 主题 
作为 处 理 组 (第 1 组 :食品 安全 ;第 2 组 :常见 疾病 ;第 3 
组 :养生 保健 ) ,样本 含量 为 每 组 包含 虚假 健康 信息 的 
条 数 , 每 个 特征 在 每 条 样本 中 出 现 的 频次 作为 观测 值 。 


当 特 征 的 均值 差 显 著 性 水 平 p 值 小 于 0.05 时 ,表明 不 
同 主题 的 虚假 健康 信息 在 该 特征 上 存在 显著 差异 , 则 
认为 该 特征 为 不 同 主题 虚假 健康 信息 的 显著 特征 , 方 
差分 析 结 果 见 表 4。 

结果 表明 ,不 同 主题 虚假 健康 信息 在 大 多 特征 上 
尚未 表现 出 明显 差异 ,表明 社交 媒体 不 同 主题 虚假 健 
康信 息 特征 较为 相似 。 但 也 可 以 发 现 ,食品 安全 (组 1) 


T 
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RA 社交 媒体 虚假 健康 信息 特征 方差 分 析 


ANOVA 


Post hoc Post hoc Post hoc 

等 征 维度 核心 特征 p-value 
(sig. ) Pia Pi5 Po 3 
表面 特征 ”元 数据 缺失 .000 *** .123 .000** — .043* 
格式 混乱 .876 .853 .612 .747 
语义 特征 ”信息 不 完整 .080 .061 .829 .067 
夸大 事实 .000*** — .000 *** .712 .039 * 
术语 包装 .000**  .000** .011* .186 
信息 诱导 .838 .692 .561 .853 
语气 或 语言 才 .475 .318 .914 .269 
捏造 数据 .586 .572 .303 .641 
来 源 特征 信 源 模糊 . 668 . 496 . 867 .397 
缺乏 确证 .506 .693 .251 .451 
假借 权威 . 000 *** .877 000 *** — .008** 


Ve: Um p <0. 001, "s p «0.01, "og p «0.05 


书 十 在 “术语 包装 (pia = 0007, p, 3 = 011 ) 特 征 上 
更 太 显 著 。 而 常见 疾病 (组 2) 和 养生 保健 (组 3) 主 是 
Te oil den (p,, =.186) 特 征 上 不 存在 显著 差异 。 
其 仇 而 言 ,社交 媒体 食品 安全 主题 的 虚假 健康 信息 在 


“Rar ”方面 ， 经 党 使 用 "激素 催生 技术 “个 氨 二 
c" “ 阿 斯 巴 甜 等 专业 术语 或 伪 概 念 ,造成 发 布 


的 汉 容 具有 专业 性 的 假象 来 迷惑 用 户 。 常 见 疾病 (组 
2 FEAE ERKEK” (p,a = .000” ,Ps = .039 ) 特 征 
上 更 加 显著 。 而 食品 安全 (组 1) 和 养生 保健 (组 3 ) E 
ME" EKEK” (ps o 112) 特征 上 不 存在 显著 关 
GRUT FE EZB EE TURCIS TO E P fA 
ste Gc" Jr iti, e LR “ERR” “ 
ir; di ' 抗 痛 之 星 ” ee 
DR. JUERHRCB 3) AMEE" TERED” Cr 
=.000°", p,, 2.043 ' J RI" BU ALL” (pia 2.00077, 
Pog =.008 站 特征 上 更 加 显著 。 而 食品 安全 (组 1) 和 
常见 疾病 (组 2) 主 题 在 “元 数据 缺失 ”(p, ,=. 123 ) 和 
“假借 权威 ”(p, , 7.877) 特征 上 不 存在 显著 差异 。 具 
体 而 言 ,社交 媒体 养生 保健 主题 的 虚假 健康 信息 在 “元 
renti dle he 
A” USUS BH" SERERE iE" uf Ba” 77 H, Z 
使 用 * 诺 贝尔 奖 得 主 ”““ 首 席 科 学 家 ”' ea 
行 保健 品 的 虚假 宣传 ,以 欺骗 消费 
4.3 ”社交 媒体 虚假 健康 信息 特征 清单 构建 
通过 卡 方 检验 和 方差 分 析 , 本 研究 揭示 了 社交 媒 
体 虚假 健康 信息 的 显著 特征 。 基 于 上 述 显著 特征 , 笔 
者 进一步 构建 了 社交 媒体 虚假 健康 信息 特征 清单 ,以 
期 为 用 户 更 好 地 识别 虚假 健康 信息 提供 有 益 参 考 ,如 


表 5 所 示 。 该 清单 主要 由 社交 媒体 虚假 健康 信息 的 特 
征 维度 、 主 要 特征 、 子 特征 以 及 相关 建议 组 成 。 应 用 上 
述 关 键 特征 及 相关 建议 ,用 户 可 以 对 社交 媒体 健康 信 
息 进 行 综合 研判 。 


5 研究 结论 与 启示 


笔者 采集 了 来 自 社交 媒体 网 络 中 的 1 004 条 实证 
数据 ,利用 内 容 分 析 方 法 提取 了 虚假 健康 信息 的 11 个 
主要 特征 ,并 将 其 融合 和 聚 类 为 表面 特征 .语义 特征 和 
来 源 特征 3 个 维度 。 2 元 数据 缺失 “夸大 事实 ” 
“信息 诱导 ”“ 信 息 不 完整 "“ 语 气 或 语言 不 当 ”“ 信 源 
模糊 “缺乏 确证 ”“ m 权威 "是 社交 媒体 虚假 健康 信 
息 重 要 的 特征 ,“ 格 式 混乱 “捏造 数据 “术语 包装 ”是 
社交 媒体 虚假 健康 信息 次 要 的 特征 。 在 此 基础 上 , 笔 
者 运用 卡 方 检验 识别 出 表面 特征 .语义 特征 和 来 源 特 
征 为 相同 主题 中 社交 媒体 虚假 健康 信息 的 显著 特征 ， 
采用 方差 分 析 推 断 出 “元 数据 缺失 “和 夸大 事实 “术语 
包装 ”和 “假借 权威 ”为 不 同 主题 社交 媒体 虚假 健康 信 
息 的 显著 特征 。 其 中 ,社交 媒体 上 食品 安全 主题 的 虚 
假 健康 信息 在 “术语 包装 ”特征 上 表现 得 更 为 显著 ; 
“夸大 事实 ”为 社交 媒体 上 常见 疾病 主题 虚假 健康 信 
息 的 显著 特征 ;社交 媒体 上 养生 保健 主题 的 虚假 健康 
言 息 具有 ”元 数据 缺失 ”和 “假借 权威 "显著 特征 。 这 
些 特 征 的 揭示 将 有 助 于 不 同 主题 的 虚假 健康 信息 的 自 
动 识别 。 最 终 ,笔者 构建 了 社交 媒体 虚假 健康 信息 特 
征 清单 ,该 清单 不 仅 可 以 为 社交 媒体 虚假 健康 信息 特 
征 的 测度 提供 一 定理 论 支 撑 , 也 可 以 为 社交 媒体 构建 
虚假 健康 信息 自动 过 滤 的 机 制 。 

与 已 有 研究 相 比 ,笔者 在 理论 方面 进行 了 
以 下 3 方面 的 拓展 :四 以 往 研 究 大 多 采用 介入 性 研究 
方法 ,如 访谈 法 .专家 咨询 法 和 问卷 调查 法 来 评估 网 络 
健康 信息 的 特征 ,这些 方法 在 不 同 程度 上 介入 了 研究 
对 象 的 活动 ,难以 客观 反映 真实 的 评估 结果 ,而 笔者 采 
用 非 介入 性 研究 方法 ,对 社交 媒体 健康 信息 的 真实 数 
据 进 行 科 学 地 分 析 , 形 成 了 比较 可 靠 的 社交 媒体 虚假 
健康 信息 特征 清单 ;@ 本 文 聚 焦 于 社交 媒体 虚假 健康 
信息 的 语法 .语义 和 语 用 等 特征 ,为 社交 媒体 虚假 健康 
言 息 特征 的 测度 提供 了 情报 学 的 研究 视角 和 思路 ;@) 
本 文 探索 了 社交 媒体 环境 下 不 同 主题 虚假 健康 信息 的 
特征 ,发 现 * 元 数据 缺失 “和 夸大 事实 ”术语 包装 ”和 
“假借 权威 ”等 为 不 同 主题 虚假 健康 信息 的 显著 特征 ， 
这 在 以 往 研 究 中 少 有 关注 。 

在 实践 方面 ,本 研究 不 仅 为 社交 媒体 用 户 辨别 虚 
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表 5 社交 媒体 虚假 健康 信息 特征 清单 


特征 维度 主要 特征 子 特征 


相关 建议 


表面 特征 元 数据 个 失 缺少 作者 信息 
未 注 骨 日 其 

缺少 审核 信息 

格式 混乱 拼接 图 上 

排版 错乱 
拼写 错误 
语义 特征 信息 不 完整 HARIR 
缺失 关键 数据 
SUA 
笼统 概括 
鼓吹 功效 
违反 常识 
夸大 危害 
术语 包装 滥用 术语 
混淆 概念 
声称 最 新 消 
宣称 绝密 信 | 
诱导 推广 
语气 无 节制 
煽动 性 言论 
捍 造 数据 改编 数据 
编造 案 人 

信 源 模糊 来 源 不 明 
来 源 不 可 信 
缺乏 科学 依据 
缺乏 权威 说 法 
假冒 权威 媒体 
借用 专家 名 义 
冠 以 组 织 名 号 


i th 


语气 或 语言 不 当 


来 源 特征 


缺乏 确证 


假借 权威 


02304.00610v1 


检查 是 谁 发 布 的 ,什么 时 间 发 布 的 ,审核 者 是 谁 ,有 无 版 权 声明 等 


注意 可 疑 的 图 片 ,检查 文章 排版 ,检查 文字 拼 写 


小 心 以 偏 概 全 ,断章取义 ,不 要 只 读 标题 ,要 浏览 全 文 


注意 夸张 描述 词汇 ,如 “震撼 全 球 ”“ 第 一 奇 方 “ 抗 癌 之 星 ”“ 根 治 ” 


检查 专业 术语 ,注意 偷 换 概念 


提防 诱导 性 的 文字 ,如 “最 新 发 现 “ 紧急 播报 “请 立即 传 出 去 ”“ 快 告诉 家 里 人 ” 


注意 文章 的 语言 风格 和 语气 强 弱 


仔细 确认 数据 ,提防 虚假 案例 


检查 链接 和 来 源 , 追 本 溯源 


提防 主观 腾 断 ,小 心 求 证 


搜索 其 他 媒体 是 否 报道 过 ,提防 谣言 变种 


假 键 康信 息 提供 了 有 效 工具 ,也 为 社交 媒体 服务 提供 
南湖 别 虚假 健康 信息 提供 了 有 效 途径 。 对 社交 媒体 用 
人 
相 美 原始 语句 ,较为 直观 地 揭示 了 虚假 健康 信息 的 特 
征 % 社 交 媒 体 用 户 可 以 借鉴 虚假 健康 信息 特征 清单 ,对 
搜寻 或 偶遇 到 的 健康 信息 进行 主动 识别 ,以 减少 因 误 
信 虚 假 健康 信息 而 导致 严重 医疗 后 果 的 情况 发 生 ; 另 
一 方面 ,用 户 可 以 通过 对 虚假 健康 信息 特征 的 学 习 和 
掌握 ,以 提升 自身 健康 信息 素养 ,从 而 提高 虚假 健康 信 
息 鉴 别 能 力 。 对 社交 媒体 服务 服务 提供 商 而 言 ,笔者 
构建 的 社交 媒体 虚假 健康 信息 特征 清单 , 既 为 社交 平 
台 管 理 者 第 选 和 剔除 虚假 健康 信息 提供 实证 支持 ,也 
为 社交 媒体 平台 基于 该 框架 建立 虚假 健康 信息 自动 巴 
警 和 过 滤 机 制 提供 理论 支撑 ,从 而 实现 从 源头 上 过 第 
虚假 健康 信息 的 传播 。 同 时 ,社交 媒体 相关 健康 信息 
的 发 布 者 也 可 以 参考 本 列表 来 完善 其 所 传播 的 健康 信 
息 的 表面 .语义 和 来 源 特征 ,从 而 全 面 提 升 社交 媒体 平 
台 健 康信 息 的 质量 。 

尽管 本 研究 在 理论 和 实践 方面 做 出 了 一 定 贡献 ， 
但 仍然 存在 一 些 局 限 。 首 先 ,笔者 构建 的 社交 媒体 虚 


pi 


假 健 康信 息 特 征 清单 还 处 于 初步 探索 阶段 ,鉴于 社交 
媒体 健康 信息 的 动态 性 ,该 列表 在 未 来 实际 应 用 中 也 
应 不 断 改进 和 优化 。 其 次 ,本 研究 是 基于 微 信 平台 进 
行 的 探索 ,结论 是 否 使 用 于 其 他 社交 媒体 平台 ,还 有 待 
进一步 的 比较 研究 。 最 后 ,本 研究 仅 关注 社交 媒体 虚 
假 健康 信息 的 特征 识别 ,未 考虑 其 识别 效果 ,在 未 来 的 
研究 中 ,将 考虑 基于 这 些 虚假 信息 特征 对 社交 媒体 健 
康信 息 数 据 集 进行 机 器 学 习 , 以 更 为 精准 地 识别 社交 
媒体 虚假 健康 信息 ,进一步 深化 和 推广 本 文 的 研究 结 
论 。 
致谢 :感谢 马 费 成 教授 对 本 文选 题 、 撰 写 及 最 终 定稿 的 
指导 和 帮助 ! 
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Study on Feature Identification of False Health Information on Social Media 
Zhang Shuai 
School of Information Management, Wuhan University, Wuhan 430072 
Center for Studies of Information Resources, Wuhan University, Wuhan 430072 

Abstract: | Purpose/ significance | This study identifies the features of false health information on social media 
and construct a list of false health information characteristics on social media, in order to provide certain theoretical 
support for the measurement of false health information features on social media, and also provide a useful reference 
for users and social media service platforms to distinguish false health information. | Method/process | 1 004 pieces 
of empirical data from social media were collected , and the key features of false health information were extracted by 
programmatic coding. Then the chi - square test and analysis of variance were adopted to identify significant features 
of health misinformation. In addition, this study developed a list of features to identify health misinformation on social 
media. | Result/conclusion | It was shown that the features of false health information on social media had three di- 
mensions; surface features, semantic features, and source features. There were 11 main features and 29 sub-fea- 
tures. It was found that the features of “term packaging" on food safety topic was more notable than other topics; 
“exaggerated facts" on common diseases topic was more significant than other topics; the features of “lack of meta- 
information" and "fake authority" on healthcare topic were more prominent than other topics. 
false features feature identification 
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